Classification et régionalisation

Application aux résultats des élections européennes de 2024 en France métropolitiane

CLaude GRASLAND (Université Paris Cité - département de géographie, UMR 8504 Géographie-cités - équipe TERMS)

featured

Le résumé de votre fiche dans cet encart

Introduction

1 UN EXEMPLE METHODOLOGIQUE

Afin de bien comprendre la différence entre classification et régionalisation et l’importance de la pondération, nous allons commencer par un exemple très simple portant sur la distribution des votes pour les deux principales listes d’extrême droite dans les 12 régions de France Métropolitaine.

1.1 Présentation des données

On calcule le pourcentage de suffrages exprimés pour les listes conduites par Jordan Bardella (liste n°5 , RN) et Marion Maréchal (liste n°3, Reconquête) à l’échelle des 12 régions de France Métropolitaine (hors Corse). On obtient le tableau suivant :

Part des suffrages exprimés pour les listes Bardella et Marechal aux élections européennes de 2024 par région
regi regi_code regi_nom Bardella Marechal
11 IDF Île-de-France 18.8 5.7
24 CVDL Centre-Val de Loire 34.9 5.4
27 BOFC Bourgogne-Franche-Comté 37.1 5.3
28 NORM Normandie 35.3 4.6
32 HDFR Hauts-de-France 42.4 4.6
44 GEST Grand Est 38.3 5.5
52 PDLO Pays de la Loire 27.6 4.7
53 BRET Bretagne 25.6 4.2
75 NAQU Nouvelle-Aquitaine 30.9 5.0
76 OCCI Occitanie 33.7 5.5
84 AURA Auvergne-Rhône-Alpes 30.9 5.6
93 PACA Provence-Alpes-Côte d’Azur 38.6 7.7

1.1.1 Paramètres principaux

L’examen des paramètres statistiques des deux listes est effectué à l’intérieur des 12 régions étudiées en excluant la Corse et les DROM. Les valeurs sont dont légèrement différentes des résultats obtenus pour la France entière.

Paramètres principaux des deux listes
minimum maximum moyenne écart-type variance coeff. variation (%)
Bardella 18.8 42.4 32.9 6.5 42.7 19.9
Marechal 4.2 7.7 5.3 0.9 0.8 16.7

1.1.2 Distribution spatiale

On cartographie la distribution des deux variables en quatre classes à l’aide de la méthode des quantiles (soit trois régions par classe) et on examine la forme des histogrammes correspondant.

1.2 Matrices de dissimilarité

En amont d’une classification ou d’une régionalisation, la création d’une matrice de dissimlilarité entre les unités spatiales est une étape essentielle qui conditionne la suite des analyses. Deux choix essentiels interviennet alors :

  • le choix d’une transformation ou non des indicateurs
  • le choix d’une métrique

1.2.1 Espace des variables brutes

La variance des scores de la variable X1 (Bardella) est beaucoup plus forte que celle de la variable X2 (Marechal), ce qui signifie que si l’on s’en tient aux variables brutes, les différences entre régions seront liées essentiellement aux variations de la liste X1. Les différentes unités spatiales se positionneront alors dans un espace de la forme suivante :

On voit visuellement sur la figure précédente que les points représentant les unités spatiales sont plus ou moins éloignés, la distance qui les sépare étant une mesure de leur dissimilarité en matière de vote pour les deux listes considérées. Deux mesures de distances peuvent alors classiquement être utilisées pour convertir les positions en matrice de distance, la distance euclidienne (\(D^{Euc}\)) et la distance de Manhattan (\(D^{Man}\)).

  • \(D^{Euc}(i,j) = \sqrt{\sum_{k=1}^K (X_{ik}-X_{jk})^2}\)

  • \(D^{Man}(i,j) = \sum_{k=1}^K |X_{ik}-X_{jk}|\)

Les deux solutions donnant des résultats assez voisins on se limitera ici à l’analyse de la matrice des distances euclidiennes.

Dissimilarité en distance euclidienne brute
IDF CVDL BOFC NORM HDFR GEST PDLO BRET NAQU OCCI AURA PACA
IDF 0.0 16.2 18.3 16.6 23.6 19.5 8.9 6.9 12.2 14.9 12.1 20.0
CVDL 16.2 0.0 2.2 0.9 7.5 3.4 7.3 9.4 4.0 1.3 4.0 4.4
BOFC 18.3 2.2 0.0 1.9 5.4 1.3 9.5 11.6 6.2 3.4 6.2 2.9
NORM 16.6 0.9 1.9 0.0 7.1 3.1 7.7 9.8 4.4 1.9 4.5 4.5
HDFR 23.6 7.5 5.4 7.1 0.0 4.2 14.8 16.8 11.5 8.8 11.5 4.9
GEST 19.5 3.4 1.3 3.1 4.2 0.0 10.7 12.8 7.4 4.6 7.4 2.2
PDLO 8.9 7.3 9.5 7.7 14.8 10.7 0.0 2.1 3.3 6.1 3.4 11.4
BRET 6.9 9.4 11.6 9.8 16.8 12.8 2.1 0.0 5.4 8.2 5.5 13.5
NAQU 12.2 4.0 6.2 4.4 11.5 7.4 3.3 5.4 0.0 2.8 0.6 8.2
OCCI 14.9 1.3 3.4 1.9 8.8 4.6 6.1 8.2 2.8 0.0 2.8 5.4
AURA 12.1 4.0 6.2 4.5 11.5 7.4 3.4 5.5 0.6 2.8 0.0 8.0
PACA 20.0 4.4 2.9 4.5 4.9 2.2 11.4 13.5 8.2 5.4 8.0 0.0

1.2.2 Espace des variables standardisées

Si le choix de la métrique euclidienne ou de la métrique de Manhattan introduit peu de différences dans les matrices de dissimilarité, il en va tout autrement de la standardisation des variables qui consiste à ramener chaque indicateur à une même moyenne (\(\mu = 0\)) et surtout un même écart-type (\(\sigma = 1\)).

\(X^*_i = \frac{X_i - \mu_X}{\sigma_X}\)

Pour bien apprécier la différence, onpeut commencer par visualiser les distances (donc les dissimilarités) dans l’espace des variables standardisées en adoptant comme précédemment un repère orthonormé mais dont l’unité de mesure est l’écart-type et non plus les points de pourcentage :

Les distances euclidiennes dans ce nouvel espace des variables standardisées sont évidemment différentes de celles que l’on avait obtenu dans l’espace des variables brutes.

Dissimilarité en distance euclidienne standardisée
IDF CVDL BOFC NORM HDFR GEST PDLO BRET NAQU OCCI AURA PACA
IDF 0.0 2.5 2.8 2.8 3.8 3.0 1.7 1.9 2.0 2.3 1.9 3.8
CVDL 2.5 0.0 0.4 0.9 1.5 0.5 1.4 2.0 0.8 0.2 0.6 2.6
BOFC 2.8 0.4 0.0 0.8 1.1 0.3 1.6 2.1 1.0 0.6 1.0 2.7
NORM 2.8 0.9 0.8 0.0 1.1 1.1 1.2 1.6 0.8 1.0 1.3 3.5
HDFR 3.8 1.5 1.1 1.1 0.0 1.2 2.3 2.6 1.8 1.7 2.1 3.6
GEST 3.0 0.5 0.3 1.1 1.2 0.0 1.9 2.4 1.3 0.7 1.1 2.5
PDLO 1.7 1.4 1.6 1.2 2.3 1.9 0.0 0.6 0.6 1.3 1.1 3.8
BRET 1.9 2.0 2.1 1.6 2.6 2.4 0.6 0.0 1.2 1.9 1.7 4.4
NAQU 2.0 0.8 1.0 0.8 1.8 1.3 0.6 1.2 0.0 0.7 0.7 3.3
OCCI 2.3 0.2 0.6 1.0 1.7 0.7 1.3 1.9 0.7 0.0 0.4 2.6
AURA 1.9 0.6 1.0 1.3 2.1 1.1 1.1 1.7 0.7 0.4 0.0 2.7
PACA 3.8 2.6 2.7 3.5 3.6 2.5 3.8 4.4 3.3 2.6 2.7 0.0

1.2.3 Espace des variables ordinales

On pourrait transformer nos deux variables \(X_1\) et \(X_2\) en rang pour en faire des distributions uniformes insensibles au jeu des valeurs exceptionnelles. Si l’on effectue une transformation en rang, la géométrie de l’espace devient celle d’une grille de 12 x 12 positions en fonction des rangs obtenus par les unités spatiales pour le vote Bardella ou le vote Maréchal. Dans cet espace discret (sauf en cas de valeurs ex aequo) il semble logique d’utiliser la somme des différences de rang en valeur absolue, c’est-à-dire la distance de Manhattan sur les variables transformées. Cette distance correspond au plus court chemin en suivant la grille qui croise les rangs de X1 et X2 :

Dissimilarité de Manhattan sur les rangs
IDF CVDL BOFC NORM HDFR GEST PDLO BRET NAQU OCCI AURA PACA
IDF 0 10 13 15 20 11 9 11 10 8 4 11
CVDL 10 0 3 5 10 5 7 11 4 2 6 9
BOFC 13 3 0 4 7 4 8 12 5 5 9 8
NORM 15 5 4 0 5 8 6 8 5 7 11 12
HDFR 20 10 7 5 0 9 11 11 10 12 16 11
GEST 11 5 4 8 9 0 12 16 9 5 7 4
PDLO 9 7 8 6 11 12 0 4 3 7 7 16
BRET 11 11 12 8 11 16 4 0 7 11 11 20
NAQU 10 4 5 5 10 9 3 7 0 4 6 13
OCCI 8 2 5 7 12 5 7 11 4 0 4 9
AURA 4 6 9 11 16 7 7 11 6 4 0 9
PACA 11 9 8 12 11 4 16 20 13 9 9 0

Il existe de nombreuses autres solutions permettant de transformer le petit tableau de données en d’autres matrices de dissimilarité tout aussi légitimes que les trois présentées ci-dessus. On pourrait par exemple utiliser une autre métrique telle que distance de Tchebychev qui est la magnitude absolue maximale des différences entre les coordonnées des points.

Le point important à retenir avant de passer à la suite des analyses est que le choix de la matrice de dissimilarité exerce une influence cruciale sur les résultats des méthodes de classification ou de régionalisation qui vo,nt être mise en oeuvre. Or, ce choix est trop souvent implicite dans les logiciels de statistiques qui proposent par défaut des méthodes fondées sur la variance c’est-à-dire sur le carré des distances euclidiennes standardisées. Ce choix est le plus souvent justifié car il évite aux débutants en statistique des erreurs fatales telles que le fait de ne pas standardiser un jeu de variables hétérogènes ayant des unités de mesure et des ordres de grandeur différents. Mais il peut aussi aboutir à des résultats discutables ou du moins pas forcément les plus adaptés à la problématique.

1.3 Classification

1.3.1 Choix du critère à optimiser

Les méthodes de classification et de régionalisation ascendante hiérarchiques ont pour point commun d’opérer un regroupement des unités spatiales en allant des plus ressemblantes au moins ressemblantes. Elles fournissent un arbre de regroupement qui permet de visualiser chaque étape du regroupement et des critères permettant d’opérer un compromis entre l’homogénéité interne des classes ou régions et leur nombre.

Une bonne classification (ou une bonne régionalisation) devra comporter le moins de classes ou régions pour offrir un bon résumé. Mais également un nombre suffisant pour éviter de constituer des ensembles trop hétérogène. On utilise souvent la part de variance expliquée par la partition pour mesurer cette qualité. Mais ce choix conduit à imposer une métrique (distance euclidienne) et un algorithme (critère de Ward). Il est plus intéressant de prendre un critère plus général fonde sur le rapport entre les dissimilarité internes et externes des entités constituées. Si on s’en tient à la définition de classes ou régions homogènes comme des groupes d’unités spatiales qui se ressemblent plus entre elles qu’elles ne ressemblent aux unités spatiales des autres groupes, alors notre critère à optimiser \(H\) prendra une des formes suivantes :

\(H = \frac{Dissimilarité \space inter \space groupe}{Dissimilarité \space intra \space groupe}\)

ou

\(H = \frac{Dissimilarité \space inter \space groupe}{Dissimilarité \space totale}\)

ou

\(H = 1- \frac{Dissimilarité \space intra \space groupe}{Dissimilarité \space totale}\)

1.3.2 Choix de l’algorithme de regroupement

Une classification ascendante hiérarchique peut s’opérer selon différents algorithmes qui correspondent à différents critères d’optimisation Le critère qui semble intuitivement le plus simpleest la minimisation des distances moyennes intra-classes et la maximisation des distances moyennes inter-classes. Cette méthode du average linkage est la plus simple à comprendre. Mais il existe beaucoup d’autres algorithmes cherchant par exemple à minimiser les distances minimales (single linkage) , les distance maximales (complete linkage), les distances médianes, etc… La méthode par défaut de la plupart des logiciels de statistiques est appelée méthode de Ward qui consiste à minimiser la somme des distances entre les centres de gravité des classes ce qui la place l’analyse dans le cadre de l’analyse de la variance (Ward 1963).Cette méthode comporte toutefois des variantes qui produisent des résultats différentes comme cela a été démontré par Murtagh, Legendre (2014) et on distingue en pratique deux méthodes Ward.D et Ward.D2 qui s’appliquent à des distances simples ou des distances élevées au carré.

Pour assurer une bonne comparabilité des résultats de classification et de régionalisation, nous utiliserons ici la fonction R-base hclust() (hierarchical clustering) plutôt que la fonction HCPC() du package FactoMineR qui est plus puissante mais introduit souvent des modifications de l’algorithme de base à l’insu de l’utilisateur non averti (notamment le fait d’optimiser a posteriori les classes par une méthode de type k-means). La régionalisation sera faite à l’aide de la fonction constr.clust() du package adespatial qui reproduit fidèlement la méthode de la fonction hclust() en y ajoutant simplement une contrainte de contiguïté des unités regroupées. Pour plus de détail on se reportera à la description de la classification avec contrainte de contiguïté dans Guénard, Legendre (2022).

1.3.3 Comparaison des classifications

Nous allons examiner les résultats des classifications opérées sur les matrices de dissimilarité en distance euclidienne sur variables standardisées ou non standardisées et en distance de Manhtattan sur variables ordinales avec la même méthode Ward.D. Nous examinerons également dans chaque cas la distribution géographique des résultats pour une partition en deux classes afin de voir si les classes obtenues correspondent ou non à une régionalisation de la France

1.4 Régionalisation

La fonction constr.hclust() du package adespatial permet de réaliser une classification ascendante hiérarchique sous contrainte de contiguïté en suivant un algorithme strictement comparable à celui d’une classification. La seule différence réside dans le fait d’éliminer des solutions en interdisant le regroupement d’unités spatiales si elles ne sont pas voisines ou, plus précisément connexes. La procédure suit donc le schéma suivant tiré de (Guénard, Legendre 2022) :

1.4.1 Graphe de proximité

Pour bien comprendre la différence entre classification et régionalisation, il est intéressant de visualiser cartogra^phiquement les matrices de contiguïté associés à chacune des deux méthodes.

  • la classification fait appel implicitement à un graphe complet qui est non planaire et dans lequel toutes les fusions d’unités spatiales en classes sont autorisées, qu’elles soient voisines ou non, connexes ou non.

  • la régionalisation fait de son côté appel à un graphe de contiguïté qui est de type planaire et que l’on obtient - dans l’exemple présenté ici - en détectant les régions qui ont une frontière commune. Il est facile d’obtenir ce graphe en utilisant par exemple la fonction poly2nb() du package spdep.

Il découle de ce qui précède une conséquence fondamentale qui est le fait qu’une régionalisation suppose un double choix en ce qui concerne la matrice de dissimilarité, d’une part, et la matrice de proximité d’autre part. Or, si le choix de la contiguïté administrative paraît évident dans le cas étudié ici, d’autres solutions seraient possibles pour établir un graphe de proximité aboutissant à d’autres formes de régionalisation. On peut en donner rapidement deux exemples.

  • Une triangulation de Delaunay pourrait par exemple être établie entre les centres des unités spatiales, qui aboutirait également à un graphe planaire mais ne respecterait pas forcémentn le critère de présence d’une frontière commune. On peut la réaliser facilement avec la fonction tri2nb() du package spdep.
  • La méthode des k plus proches voisins pourrait également servir à déterminer pour chaque unité spatiale les k plus proches en prenant comme critère la distance à vol d’oiseau entre leurs centres. On réalise facilement le graphe à l’aide des fonctions knearneigh() et knn() du package spdep. On obtient alors un graphe non planaire mais où chaque unité spatial aurait des nombres de voisins plus proches que dans le cas du graphe de contiguïté (mais pas forcément égal).

1.4.2 Régionalisation

Comme dans le cas de la classification, il existe de nombreux algorithmes possible pour regrouper les unités spatiales en cherchant à minimiser les dissimilarités intra-régionales. Nous nous limiterons ici à l’algorithme de régionalisation réalisé par la fonction constr.hclust() du package adespatial qui présente l’intérêt d’utiliser exactement les mêmes formules de calcul que la fonction hclust() de R-base et offre une parfaite possibilité de comparaison des résultats entre les deux approches. Pour éviter de multiplier les exemples, nous nous limiterons ici à l’analyse des régionalisations fondées sur une matrice de contiguïté, en reprenant les trois matrices de dssimilarité précédentes.

1.5 Conclusion

Au final, ce petit exercice souligne la complexité des options possibles du fait du nombre de choix qu’il faut opérer pour réaliser une classification et, a fortiori une régionalisation. Encore n’avons nous pas fait état de l’ensemble des solutions alternatives, notamment celles qui se fondent sur des méthodes de classification descendantes (ref.) ou sur des méthodes de type noyau mobile.

Mais la question la plus fondamentale est probablement la suivante : quel est l’apport d’une régionalisation par rapport à une classification pour l’analyse d’un phénomène social ? Puisque nous avons vu qu’une régionalisation est par définition moins efficace qu’une classification pour constituer des groupes homogènes, il faut que la prise en compte des contraintes spatiales apporte un avantage décisif à la régionalisation pour choisir de la mettre en oeuvre. Ce qui suppose que la matrice de proximité spatiale ait un sens pour la personne qui va interpréter les résultats.

C’est ce point que nous allons maintenant explorer en étudiant l’ensemble des résultats des élections européennes à trois niveaux d’agrégation.

2 ANALYSE DES ELECTIONS EUROPEENNES DE 2024

La réalisation d’une classification et d’une régionalisation des résultats des élections européennes va être menée à différentes échelles, depuis le niveau des régions jusqu’à celui des circonscriptions en passant par le liveau départemental. L’objectif sera de construire des classes ou des régions présentant des profils électoraux homogènes en matière de vote.

Préalablement à ces analyses, il est important d’analyser la distribution des votes afin de distinguer l’implantation spatiale des listes candidates au scutin afin de repérer celles qui vont le plus contribuer aux différenciations au niveau national ou au niveau local.

2.1 Identification des listes de portée nationale

Les électeurs français ont eu le choix entre 38 listes lors des élections européennes de juin 2024. Mais seule une partie d’entre elles a connu une audience nationale et beaucoup de petites listes n’ont même pas été capable de fournir des bulletins dans tous les bureaux de votes.

2.1.1 Loi rang-taille ?

La distribution du pourcentage de votes en fonction du rang des listes suit une loi exponentielle presque parfaite (\(r^2 =0.98 , p < 0.001\))

Variable dépendante
% de votes reçus par une liste (log)
Rang de la liste -0.247***
(0.006)
Constant 2.989***
(0.133)
Observations 38
R2 0.980
Adjusted R2 0.979
Residual Std. Error 0.402 (df = 36)
F Statistic 1,725.409*** (df = 1; 36)
Note: p<0.1; p<0.05; p<0.01

2.1.2 Typologie

La régularité de la loi précédente ne permet pas d’établir une rupture nette permettant de séparer grandes et petites listes. Mais une typologie combinant le logarithme du score national en % et l’indice de concentration de Gini par circonscription permet de mieux distinguer des listes mineures ayant obtenu des votes dans un petit nombre de circonscription et des listes d’audience nationale ayant obtenu des voix dans un nombre plus important de circonscriptions même lorsque leur score est faible.

[1] "1" "2"

2.2 Echelle départementale

2.2.1 Matrice de dissimilarité

On choisit comme matrice de dissimilarité le coefficient de divergence c’est-à-dire la part des électeurs qui devraient changer de votes pour que les deux unités spatiales affichent le même profil électoral. Cet indice correspond à la moitié de la distance de Manhattan entre les profils en pourcentage :

\(\frac{1}{2} \sum_{p=1}^{38} {|\frac{X_{ip}}{X_{i.}} - \frac{X_{jp}}{X_{j.}}|}\)

On peut illustrer le calcul en prenant l’exemple de la plus forte dissimilarité qui est observée entre le département de l’Aisne (02) et le département de Paris (75) :

Info -- For this coefficient, sqrt(D) would be Euclidean
Info -- This coefficient does not have an upper bound (no fixed D.max)
          02        80       75       92
02  0.000000  9.405334 47.23083 41.27744
80  9.405334  0.000000 42.15342 36.28176
75 47.230831 42.153418  0.00000 11.06179
92 41.277440 36.281763 11.06179  0.00000
Aisne (02) Paris (75) dif difabs
DEHER-LESAINT 0.0 0.0 0.0 0.0
PONGE 0.0 0.0 0.0 0.0
MARÉCHAL 5.0 5.9 -0.9 0.9
AUBRY 5.3 16.8 -11.5 11.5
BARDELLA 50.6 8.5 42.1 42.1
TOUSSAINT 2.4 10.7 -8.3 8.3
AZERGUI 0.0 0.0 0.0 0.0
THOUY 2.4 1.2 1.2 1.2
TERRIEN 0.0 0.0 0.0 0.0
ZORN 0.1 0.4 -0.3 0.3
HAYER 11.3 17.7 -6.4 6.4
ALEXANDRE 0.0 0.0 0.0 0.0
CHOLLEY 0.2 0.4 -0.3 0.3
WEHRLING 0.3 0.3 0.0 0.0
ASSELINEAU 0.9 0.8 0.1 0.1
SIMONIN 0.0 0.0 0.0 0.0
FORTANÉ 0.0 0.0 0.0 0.0
BELLAMY 6.2 10.5 -4.2 4.2
ARTHAUD 0.7 0.3 0.5 0.5
LARROUTUROU 0.0 0.1 -0.1 0.1
RENARD-KUZMANOVIC 0.1 0.1 0.0 0.0
LABIB 0.1 0.1 0.0 0.0
ADOUE 0.0 0.0 0.0 0.0
PHILIPPOT 0.9 0.6 0.3 0.3
HUSSON 0.0 0.0 0.0 0.0
BONNEAU 0.0 0.0 0.0 0.0
GLUCKSMANN 7.8 22.9 -15.1 15.1
HOAREAU 0.0 0.0 0.0 0.0
LASSALLE 2.2 0.4 1.8 1.8
LALANNE 0.0 0.0 0.0 0.0
LACROIX 0.2 0.2 0.0 0.0
ELMAYAN 0.0 0.0 0.0 0.0
DEFFONTAINES 2.3 1.4 0.9 0.9
COSTE-MEUNIER 0.0 0.0 0.0 0.0
GOVERNATORI 0.8 0.6 0.2 0.2
TRAORÉ 0.0 0.0 0.0 0.0
PATAS D’ILLIERS 0.0 0.0 0.0 0.0
GRUDÉ 0.0 0.0 0.0 0.0
Total 100.0 100.0 0.0 94.5

2.2.2 Classification

L’application d’une méthode de classification ascendante hiérarchique à la matrice de dissimilarité fait apparaître assez nettement cinq classes qui regroupent souvent des départements voisins mais sans pour autant former des régions.

Une analyse des profils permet ensuite de caractériser ces classes.

Ecart des classes au profil moyen (listes principales)
Classe1 Classe2 Classe3 Classe4 Classe5 Profil
BARDELLA 1.50 7.52 -3.97 -2.43 -13.69 33.88
HAYER -0.55 -1.31 2.56 -1.05 1.23 14.11
GLUCKSMANN -0.91 -2.78 2.01 2.46 2.85 13.43
AUBRY 0.74 -1.89 -1.24 -1.94 8.59 8.28
BELLAMY -0.32 -0.17 0.19 -0.34 1.06 7.12
MARÉCHAL 0.10 0.38 -0.42 -0.36 -0.04 5.34
TOUSSAINT 0.03 -1.47 1.15 -0.38 2.44 4.90
LASSALLE -0.79 -0.12 -0.36 3.66 -1.94 3.08
DEFFONTAINES -0.10 -0.03 -0.08 0.75 -0.47 2.53
THOUY 0.09 0.20 -0.07 -0.24 -0.30 2.07
GOVERNATORI 0.11 -0.13 0.18 -0.16 0.04 1.23
ASSELINEAU 0.04 -0.02 -0.05 0.11 -0.03 1.02
PHILIPPOT 0.04 0.05 -0.05 0.04 -0.17 0.95

2.2.3 Autocorrélation spatiale

2.3

Bibliographie

BARNIER, Julien, 2021. rmdformats: HTML Output Formats and Templates for ’rmarkdown’ Documents [en ligne]. S.l. : s.n. Disponible à l'adresse : https://github.com/juba/rmdformats.
GUÉNARD, Guillaume et LEGENDRE, Pierre, 2022. Hierarchical clustering with contiguity constraint in R. In : Journal of statistical software [en ligne]. 2022. Vol. 103, pp. 126. Disponible à l'adresse : https://www.jstatsoft.org/article/view/v103i07.
MURTAGH, Fionn et LEGENDRE, Pierre, 2014. Wards Hierarchical Agglomerative Clustering Method: Which Algorithms Implement Wards Criterion? In : Journal of Classification [en ligne]. octobre 2014. Vol. 31, n° 3, pp. 274‑295. DOI 10.1007/s00357-014-9161-z. Disponible à l'adresse : http://dx.doi.org/10.1007/s00357-014-9161-z.
R CORE TEAM, 2020. R: A Language and Environment for Statistical Computing [en ligne]. Vienna, Austria : R Foundation for Statistical Computing. Disponible à l'adresse : https://www.R-project.org/.
WARD, Joe H., 1963. Hierarchical Grouping to Optimize an Objective Function. In : Journal of the American Statistical Association [en ligne]. mars 1963. Vol. 58, n° 301, pp. 236‑244. DOI 10.1080/01621459.1963.10500845. Disponible à l'adresse : http://dx.doi.org/10.1080/01621459.1963.10500845.
XIE, Yihui, 2020. knitr: A General-Purpose Package for Dynamic Report Generation in R [en ligne]. S.l. : s.n. Disponible à l'adresse : https://CRAN.R-project.org/package=knitr.

Annexes

Source des données brutes

  • le fichier résultats-définitifs-par-circonscriptions.csv est accesible sur le site data.gouv.fr en suivant ce lien. Il présente les résultats définitifs des élections europénnes et a pour origine le Ministère de l’Intérieur. Comme il est très complexe (beaucoup de colonnes redondantes) nous l’avons modifié pour créer des fichiers ne contenant que les colonnes indispensables (effectifs)

  • le fichier candidats-eur-2024.xlsx est accessible sur le site data.gouv.fr en suivant ce lien. Produit par le ministère de l’intérieur il fournit une information detaillée sur les candidats de chacune des listes. Nous allons en extraire uniquement les caractéristiques des têtes de liste afin de produire un tableau de métadonnées sur les 38 têtes de listes.

  • le fichier indic-stat-circonscriptions-legislatives-2022.xls a été produit par l’INSEE et est accessible en suivant ce lien. Il fournit un ensemble de données de cadrage sociales et économiques sur les circonscriptions législatives de France à partir des données du recensement de 2022 et de quelques autres sources. Il ne sera pas utilisé directement mais peut servir pour des exercices complémentaires.

  • le fichier circo_composition.xls également accessible sur le même lien permet de mettre en rapport les circonscription avec les départements, les régions ou les communes. Sachant qu’une même commune peut participer à deux circonscriptions ou plus. On s’en servira principalement pour établir le lien entre circonscriptions et régions.

  • le fichier france_circonsscriptions_legislatives_2012.json contient un fonds de carte simplifié des circonscriptions législatives en vigueur depuis 2012. C’est une reprise du travail de Toxicode. L’Atelier de cartographie de Sciences Po à ensuite vérifié, nettoyé et généralisé le fond. Il est accessible sur le site data.gouv.fr en suivant ce lien. Il est beaucoup plus léger et mieux généralisé que le fonds de carte fournit par l’INSEE avec les deux ressources précédentes

Préparation des données géométriques

On charge le fichier des circonscriptions en ne conservant que les données de France métropolitaine hors Corse, soit 533 circonscriptions. On le projette en EPSG 2154 puis on l’agrège par département et régions pour disposer de trois fonds de cartes.

On affiche les trois fonds de carte pour vérification:

Préparation des données électorales

Nous allons extraire du fichier électoral les variables générales de cadrage (inscrits, votants, blancs,nuls, …) et les effectifs bruts de vote pour les candidats des différentes listes par circonscription. Ces deux tableaux seront ensuite agrégés par départements et régions

Vérifications

2.3.1 Agrégation

On vérifie tout d’abord que la procédure d’agrégation a bien donné bien les mêmes totaux au niveau des circonscriptions, départements et régions. Il apparaît que pour chaque niveau le nombre total d’inscrits est bien le même et il ne semble pas utile de vérifier les autres colonnes.

[1] 45704587
[1] 45704587
[1] 45704587

2.3.2 Jointure

On affiche trois cartes du vote pour la liste n°5 (Bardella) afin de vérifier si les jointures s’opèrent correctement entre données géométriques et statistiques.

Info session

setting value
version R version 4.4.1 (2024-06-14)
os macOS 15.1
system x86_64, darwin20
ui X11
language (EN)
collate en_US.UTF-8
ctype en_US.UTF-8
tz Europe/Paris
date 2024-12-23
pandoc 3.2 @ /Applications/RStudio.app/Contents/Resources/app/quarto/bin/tools/x86_64/ (via rmarkdown)
package ondiskversion source
adespatial 0.3.24 CRAN (R 4.4.1)
dplyr 1.1.4 CRAN (R 4.4.0)
ggplot2 3.5.1 CRAN (R 4.4.0)
ggrepel 0.9.6 CRAN (R 4.4.1)
gt 0.11.1 CRAN (R 4.4.1)
ineq 0.2.13 CRAN (R 4.4.0)
kableExtra 1.4.0 CRAN (R 4.4.0)
knitr 1.49 CRAN (R 4.4.1)
mapsf 0.12.0 CRAN (R 4.4.1)
RColorBrewer 1.1.3 CRAN (R 4.4.0)
readxl 1.4.3 CRAN (R 4.4.0)
reshape2 1.4.4 CRAN (R 4.4.0)
sf 1.0.19 CRAN (R 4.4.1)
spData 2.3.3 CRAN (R 4.4.1)
spdep 1.3.6 CRAN (R 4.4.1)
stargazer 5.2.3 CRAN (R 4.4.0)

Citation

Grasland C (2024). “Classification et Régionalisation.”, doi:10.48645/xxxxxx https://doi.org/10.48645/xxxxxx,, https://rzine.fr/publication_rzine/xxxxxxx/.

BibTex :

@Misc{,
  title = {Classification et Régionalisation},
  subtitle = {Application aux résultats des élections européennes de 2024 en France métropolitiane},
  author = {Claude Grasland},
  doi = {10.48645/xxxxxx},
  url = {https://rzine.fr/publication_rzine/xxxxxxx/},
  keywords = {FOS: Other social sciences},
  language = {fr},
  publisher = {FR2007 CIST},
  year = {2024},
  copyright = {Creative Commons Attribution Share Alike 4.0 International},
}


Glossaire